awk 是一种处理文本文件的语言,是一个强大的文本分析工具。
之所以叫AWK是因为其取了三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的Family Name的首字符。
1. 命令格式
|
|
2. 命令参数
- -F fs or –field-separator fs
指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。 - -v var=value or –asign var=value
赋值一个用户定义变量。 - -f scripfile or –file scriptfile
从脚本文件中读取awk命令。 - -mf nnn and -mr nnn
对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。 - -W compact or –compat, -W traditional or –traditional
在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。 - -W copyleft or –copyleft, -W copyright or –copyright
打印简短的版权信息。 - -W help or –help, -W usage or –usage
打印全部awk选项和每个选项的简短说明。 - -W lint or –lint
打印不能向传统unix平台移植的结构的警告。 - -W lint-old or –lint-old
打印关于不能向传统unix平台移植的结构的警告。 - -W posix
打开兼容模式。但有以下限制,不识别:/x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替\^和^=;fflush无效。 - -W re-interval or –re-inerval
允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。 - -W source program-text or –source program-text
使用program-text作为源代码,可与-f命令混用。 - -W version or –version
打印bug报告信息的版本。
3. 基本用法
log.txt 文本内容如下
|
|
用法一
|
|
实例:每行按空格或TAB分割,输出文本中的1、4行
输出
|
|
用法二
|
|
-F 相当于内置变量 FS ,指定分隔字符
实例:使用分隔符截取文档某段
|
|
说明
-F 选项的作用是指定分隔符,如果不加 -F 指定,则以空格或者 tab 为分隔符。print 为打印的动作,用来打印出某个字段。$1 为第一个字段,$2 为第二个字段,以此类推,有一个特殊的就是 $0 ,它表示整行。
也可以使用自定义字符连接每个段,awk 的格式,-F 后紧跟单引号,然后里面为分隔符,print 的动作要用 {} 括起来,否则会报错。print 还可以打印自定义的内容,但是自定义的内容要用双引号括起来。
用法三
|
|
-v 设置变量
实例:
|
|
用法四
|
|
实例
|
|
运算符
运算符 | 描述 | ||
---|---|---|---|
= += -= = /= %= ^= *= | 赋值 | ||
?: | C条件表达式 | ||
\ | \ | 逻辑或 | |
&& | 逻辑与 | ||
~ ~! | 匹配正则表达式和不匹配正则表达式 | ||
< <= > >= != == | 关系运算符 | ||
空格 | 连接 | ||
+ - | 加,减 | ||
* / % | 乘,除与求余 | ||
+ - ! | 一元加,减和逻辑非 | ||
^ * | 求幂 | ||
++ – | 增加或减少,作为前缀或后缀 | ||
$ | 字段引用 | ||
in | 数组成员 |
过滤第一列大于2的行
|
|
过滤第一列等于2的行
|
|
过滤第一列大于2并且第二列等于 ‘Are’的行
|
|
内建变量
变量 | 描述 |
---|---|
\$n | 当前记录的第n个字段,字段间由FS分割 |
\$0 | 完整的输入记录 |
ARGC | 命令行参数的数目 |
ARGIND | 命令行中当前文件的位置(从0开始算) |
ARGV | 包含命令行参数的数组 |
CONVFMT | 数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组 |
ERRNO | 最后一个系统错误的描述 |
FIELDWIDTHS | 字段宽度列表(用空格键分割) |
FILENAME | 当前文件名 |
FNR | 个文件分别计数的行号 |
FS | 字段分割符(默认是任何空格) |
IGNORECASE | 如果为真,则进行忽略大小写的匹配 |
NF | 输入字段的分隔符 |
NR | 已经读出的记录数,就是行号,从1开始 |
OFMT | 数字的输出格式(默认值是%.6g) |
OFS | 输出记录分隔符(输出换行符),输出时用指定的符号代替换行符 |
ORS | 输出记录分隔符(默认值是一个换行符) |
RLENGTH | 由 match 函数所匹配的字符串的长度 |
RS | 记录分隔符(默认是一个换行符) |
RSTART | 由 match 函数所匹配的字符串的第一个位置 |
SUBSEP | 数组下标分隔符(默认值是/034) |
|
|
使用正则,字符串匹配
输出第二列包含 “th”,并打印第二列与第四列
|
|
~ 表示模式开始。//中是模式。
|
|
忽略大小写
|
|
模式取反
|
|
awk 脚本
关于 awk 脚本,需要注意两个关键词 BEGIN 和 END。
- BEGIN {这里面放的是执行前的语句}
- END {这里面放的是处理完所有的行后要执行的语句}
- {这里面放的是处理每一行时要执行的语句}
假设有这么一个文件(学生成绩表)
|
|
awk 脚本如下
|
|
执行结果
|
|
另外一些实例
awk 的 hello world 程序为:
|
|
计算文件大小
|
|
从文件中找出长度大于80的行
|
|
打印九九乘法表
|
|